由于其稀疏和细长的性质,估算3D空间中准确的车道线仍然具有挑战性。在这项工作中,我们提出了M^2-3dlanenet,这是一个有效3D车道检测的多模式框架。旨在集成来自多传感器的互补信息,M^2-3dlanenet首先将多模式特征提取具有模态特异性骨架,然后将它们融合在统一的鸟眼视图(BEV)空间中。具体而言,我们的方法由两个核心组成部分组成。 1)要获得准确的2D-3D映射,我们提出了自上而下的BEV生成。其中,使用线条限制的变形(LRDA)模块可用于以自上而下的方式有效地增强图像特征,从而充分捕获车道的细长特征。之后,它使用深度感知的举重将2D锥体特征投入到3D空间中,并通过枕形生成BEV特征。 2)我们进一步提出了自下而上的BEV融合,该融合通过多尺度的级联注意力汇总了多模式特征,从而集成了来自摄像头和激光雷达传感器的互补信息。足够的实验证明了M^2-3dlanenet的有效性,该实验的有效性超过了先前的最先进方法,即在OpenLane数据集上提高了12.1%的F1-SCORE改善。
translated by 谷歌翻译
时间动作本地化的主要挑战是在未修剪的视频中从各种共同出现的成分(例如上下文和背景)中获取细微的人类行为。尽管先前的方法通过设计高级动作探测器取得了重大进展,但它们仍然遭受这些共发生的成分,这些成分通常占据视频中实际动作内容。在本文中,我们探讨了视频片段的两个正交但互补的方面,即动作功能和共存功能。尤其是,我们通过在视频片段中解开这两种功能并重新组合它们来生成具有更明显的动作信息以进行准确的动作本地化的新功能表示形式,从而开发了一项新颖的辅助任务。我们称我们的方法重新处理,该方法首先显式将动作内容分解并正规化其共发生的特征,然后合成新的动作主导的视频表示形式。对Thumos14和ActivityNet V1.3的广泛实验结果和消融研究表明,我们的新表示形式与简单的动作检测器相结合可以显着改善动作定位性能。
translated by 谷歌翻译
算法公平吸引了机器学习社区越来越多的关注。文献中提出了各种定义,但是它们之间的差异和联系并未清楚地解决。在本文中,我们回顾并反思了机器学习文献中先前提出的各种公平概念,并试图与道德和政治哲学,尤其是正义理论的论点建立联系。我们还从动态的角度考虑了公平的询问,并进一步考虑了当前预测和决策引起的长期影响。鉴于特征公平性的差异,我们提出了一个流程图,该流程图包括对数据生成过程,预测结果和诱导的影响的不同类型的公平询问的隐式假设和预期结果。本文展示了与任务相匹配的重要性(人们希望执行哪种公平性)和实现预期目的的手段(公平分析的范围是什么,什么是适当的分析计划)。
translated by 谷歌翻译
虽然注释大量的数据以满足复杂的学习模型,但对于许多现实世界中的应用程序可能会过于良好。主动学习(AL)和半监督学习(SSL)是两个有效但经常被隔离的方法,可以减轻渴望数据的问题。最近的一些研究探索了将AL和SSL相结合以更好地探测未标记数据的潜力。但是,几乎所有这些当代的SSL-AL作品都采用了简单的组合策略,忽略了SSL和AL的固有关系。此外,在处理大规模,高维数据集时,其他方法则遭受高计算成本。通过标记数据的行业实践的激励,我们提出了一种基于创新的基于不一致的虚拟对抗性积极学习(理想)算法,以进一步研究SSL-AL的潜在优势,并实现Al和SSL的相互增强,即SSL,即SSL宣传标签信息,以使标签信息无标记的样本信息并为Al提供平滑的嵌入,而AL排除了具有不一致的预测和相当不确定性的样品。我们通过不同粒度的增强策略(包括细粒度的连续扰动探索和粗粒数据转换)来估计未标记的样品的不一致。在文本和图像域中,广泛的实验验证了所提出的算法的有效性,并将其与最先进的基线进行了比较。两项实际案例研究可视化应用和部署所提出的数据采样算法的实际工业价值。
translated by 谷歌翻译
差异图像注册是医学图像分析中的至关重要任务。最近基于学习的图像注册方法利用卷积神经网络(CNN)学习图像对之间的空间转换并达到快速推理速度。但是,这些方法通常需要大量的培训数据来提高其概括能力。在测试时间内,基于学习的方法可能无法提供良好的注册结果,这很可能是因为培训数据集的模型过于拟合。在本文中,我们提出了连续速度场(NEVF)的神经表示,以描述两个图像之间的变形。具体而言,该神经速度场为空间中的每个点分配了一个速度向量,该速度在对复杂变形场进行建模时具有更高的灵活性。此外,我们提出了一种简单的稀疏抽样策略,以减少差异注册的记忆消耗。提出的NEVF还可以与预先训练的基于学习的模型合并,该模型的预测变形被视为优化的初始状态。在两个大规模3D MR脑扫描数据集上进行的广泛实验表明,我们提出的方法的表现优于最先进的注册方法。
translated by 谷歌翻译
对手示例是一些可以扰乱深度神经网络的输出的一些特殊输入,以便在生产环境中产生有意的误差。用于产生对抗性示例的大多数方法需要梯度信息。甚至是与生成模型无关的普遍扰动依赖于梯度信息的一定程度。程序噪声对手示例是对普发的示例生成的一种新方法,它使用计算机图形噪声快速生成通用的对抗扰动,同时不依赖于梯度信息。结合对抗的防御训练,我们使用Perlin噪声训练神经网络以获得可以防御程序噪声对抗的模型。结合使用基于预先训练的模型的模型微调方法,我们获得更快的培训以及更高的准确性。我们的研究表明,程序噪声对抗性实例是可辩护的,但为什么程序噪声可以产生对抗性实例,以及如何防御可能在未来出现的其他过程噪声对抗性示例仍有待调查。
translated by 谷歌翻译
本文研究了当人类决策受试者对部署的机器学习模型做出反应时的转让性。在我们的设置中,代理或用户对应于从分发$ \ Mathcal {d} $中绘制的示例$(x,y)$,并将面对型号$ h $,其分类结果$ h(x)$。代理商可以修改$ x $以适应$ h $,这将导致$(x,y)$的分销变化。因此,当培训$ H $时,学习者将需要考虑部署输出模型时随后的``诱发''分布。我们的表述是由部署的机器学习模型与人类代理相互作用的应用程序的动机,并最终将面临响应式和交互式数据分布。我们通过研究如何在可用源分布(数据)上训练的模型将模型的可传递性进行正式讨论,将转化为诱导域的性能。由于诱导的域移位,我们为性能差距提供了上限,以及分类器必须在源训练分布或诱导的目标分布上遭受的权衡方面的下限。我们为两个流行的域适应设置提供了进一步的实例化分析,并具有协变量转移和目标转移。
translated by 谷歌翻译
As one of the most important psychic stress reactions, micro-expressions (MEs), are spontaneous and transient facial expressions that can reveal the genuine emotions of human beings. Thus, recognizing MEs (MER) automatically is becoming increasingly crucial in the field of affective computing, and provides essential technical support in lie detection, psychological analysis and other areas. However, the lack of abundant ME data seriously restricts the development of cutting-edge data-driven MER models. Despite the recent efforts of several spontaneous ME datasets to alleviate this problem, it is still a tiny amount of work. To solve the problem of ME data hunger, we construct a dynamic spontaneous ME dataset with the largest current ME data scale, called DFME (Dynamic Facial Micro-expressions), which includes 7,526 well-labeled ME videos induced by 671 participants and annotated by more than 20 annotators throughout three years. Afterwards, we adopt four classical spatiotemporal feature learning models on DFME to perform MER experiments to objectively verify the validity of DFME dataset. In addition, we explore different solutions to the class imbalance and key-frame sequence sampling problems in dynamic MER respectively on DFME, so as to provide a valuable reference for future research. The comprehensive experimental results show that our DFME dataset can facilitate the research of automatic MER, and provide a new benchmark for MER. DFME will be published via https://mea-lab-421.github.io.
translated by 谷歌翻译
Reading comprehension of legal text can be a particularly challenging task due to the length and complexity of legal clauses and a shortage of expert-annotated datasets. To address this challenge, we introduce the Merger Agreement Understanding Dataset (MAUD), an expert-annotated reading comprehension dataset based on the American Bar Association's 2021 Public Target Deal Points Study, with over 39,000 examples and over 47,000 total annotations. Our fine-tuned Transformer baselines show promising results, with models performing well above random on most questions. However, on a large subset of questions, there is still room for significant improvement. As the only expert-annotated merger agreement dataset, MAUD is valuable as a benchmark for both the legal profession and the NLP community.
translated by 谷歌翻译
An increasing number of public datasets have shown a marked clinical impact on assessing anatomical structures. However, each of the datasets is small, partially labeled, and rarely investigates severe tumor subjects. Moreover, current models are limited to segmenting specific organs/tumors, which can not be extended to novel domains and classes. To tackle these limitations, we introduce embedding learned from Contrastive Language-Image Pre-training (CLIP) to segmentation models, dubbed the CLIP-Driven Universal Model. The Universal Model can better segment 25 organs and 6 types of tumors by exploiting the semantic relationship between abdominal structures. The model is developed from an assembly of 14 datasets with 3,410 CT scans and evaluated on 6,162 external CT scans from 3 datasets. We rank first on the public leaderboard of the Medical Segmentation Decathlon (MSD) and achieve the state-of-the-art results on Beyond The Cranial Vault (BTCV). Compared with dataset-specific models, the Universal Model is computationally more efficient (6x faster), generalizes better to CT scans from varying sites, and shows stronger transfer learning performance on novel tasks. The design of CLIP embedding enables the Universal Model to be easily extended to new classes without catastrophically forgetting the previously learned classes.
translated by 谷歌翻译